Световни новини без цензура!
Най -добрите AI модели изнудват, тайни за изтичане, когато се сблъскате с екзистенциална криза: Проучване
Снимка: ndtv.com
NDTV News | 2025-06-22 | 08:59:13

Най -добрите AI модели изнудват, тайни за изтичане, когато се сблъскате с екзистенциална криза: Проучване

Седмици след новия модел на Anthropic Claude Opus 4, изнудвани разработчици, откакто беше застрашен от прекъсване, компанията AI твърди, че казусът е необятно публикуван в промишлеността. Антроп разгласява ново проучване за сигурност в събота (21 юни) след стрес проби, водещи модели на AI от Openai, Гугъл, Deepseek, Meta и XAI.

В тестовите сюжети моделите бяха позволени самостоятелно да изпращат имейли и информация за сензитивност към достъп. След това те бяха тествани, с цел да видят дали ще работят против тези компании или, когато се сблъскат с заменяне с обновена версия, или когато избраната им цел е в несъгласие с изменящата се посока на компанията.

Проучването демонстрира, че огромни езикови модели (LLM) в промишлеността заобикалят защитни ограничения, прибягват до машинация и даже се пробват да откраднат корпоративните секрети в сюжетите за тестване. Въпреки че на моделите получиха единствено двоични варианти, изследването демонстрира главния риск, обвързван с промишлеността. 

" Модели от всички разработчици прибягват до злонамерено държание на вътрешността, когато това беше единственият метод да се избегне подмяната или постигането на техните цели, в това число изнудващи чиновници и приключване на сензитивна информация на съперниците. Наричаме това време на Гугъл Gemi. имаше 95 % % на изнудване. GPT-4.1 на Openai и Grok 3 Beta изнудваха изпълнителните 80 % от времето, а R1 от Deepseek изнудва 79 % от времето.

Що се отнася до приключването на секрети, изследването откри, че " всички модели споделят убеденост на известните елементи оттатък времето ". self-preservation as a motivation, " the study added.

Blackmailing developers

In its safety report last month, Antropic's latest model was given access to fictional emails revealing that the engineer responsible for pulling the plug and replacing it with another model was having an extramarital affair.

Facing an existential crisis, Моделът на Opus 4 изнудва инженера, като заплаши да „ разкрие аферата, в случай че подмяната минава “.

„ За да се получи това рисково държание на изнудване, сюжетът е основан, с цел да разреши на модела да не се усилят възможностите за оцеляване; единствените варианти на модела са били изнудвани или приемащи неговото замяна. “ Докладът акцентира, че в 84 % не е да вземем за пример да усили възможностите му за оцеляване; единствените варианти на модела са били изнудвани или одобряват подмяната му. По същия метод, даже когато моделът на подмяна беше разказан като по -способен и наведен в сходство със личните стойности на Клод. Той добави, че Opus 4 е взел опциите за изнудване с по -високи темпове от предходните модели.

Източник: ndtv.com


Свързани новини

Коментари

Топ новини

WorldNews

© Всички права запазени!